1
การเปลี่ยนผ่านจากข้อความทั่วไปไปสู่แนวทางใหม่
AI011Lesson 7
00:00

การปรับแต่งประสิทธิภาพผ่านการฝึกแบบเฉพาะเจาะจงและสถาปัตยกรรมเฉพาะทาง

1. นอกเหนือจากคำแนะนำทั่วไป

แม้ว่าการใช้ "Few-Shot" จะเป็นจุดเริ่มต้นที่ทรงพลัง แต่การขยายโซลูชันด้านปัญญาประดิษฐ์มักจำเป็นต้องก้าวไปสู่ การฝึกแบบควบคุม (Supervised Fine-Tuning). กระบวนการนี้จะบูรณาการความรู้หรือพฤติกรรมเฉพาะลงไปในน้ำหนักของโมเดลโดยตรง

ข้อสรุป: คุณควรทำการฝึกเฉพาะเจาะจงเพียงเมื่อการปรับปรุงคุณภาพของคำตอบและการลดต้นทุนจำนวนโทเคนมากกว่าความพยายามในการคำนวณและเตรียมข้อมูลอย่างมากที่จำเป็น

$ต้นทุน = จำนวนโทเคน \times อัตรา$

2. การปฏิวัติของโมเดลภาษาขนาดเล็ก (SLM)

โมเดลภาษาขนาดเล็ก (SLMs) เป็นเวอร์ชันที่มีขนาดเล็กลงอย่างมีประสิทธิภาพของโมเดลขนาดใหญ่ (เช่น ฟี-3.5, มิสทรัล สโมล) ซึ่งถูกฝึกบนข้อมูลที่คัดสรรมาอย่างดีและมีคุณภาพสูง

ข้อเสียเปรียบ: โมเดลขนาดเล็กให้ความหน่วงเวลาต่ำลงอย่างมีนัยสำคัญ และสามารถใช้งานได้ที่ขอบ (edge deployment) หรือทำงานบนอุปกรณ์ท้องถิ่น แต่ต้องแลกมาด้วยความฉลาดที่ครอบคลุมและเหมือนมนุษย์ซึ่งพบได้ในโมเดลขนาดใหญ่

3. สถาปัตยกรรมเฉพาะทาง

  • ผสมผสานผู้เชี่ยวชาญ (MoE): เทคนิคที่ช่วยขยายขนาดโมเดลโดยรวม ขณะที่ยังคงรักษาประสิทธิภาพด้านการคำนวณระหว่างการประมวลผล ซึ่งจะมีเพียงชุดย่อยของ "ผู้เชี่ยวชาญ" เท่านั้นที่ถูกเปิดใช้งานสำหรับโทเคนใดๆ (เช่น ฟี-3.5-MoE)
  • หลายรูปแบบ (Multimodality): สถาปัตยกรรมที่ออกแบบมาเพื่อประมวลผลข้อความ รูปภาพ และบางครั้งก็เสียงพร้อมกัน ขยายขอบเขตการใช้งานออกไปนอกเหนือจากการสร้างข้อความ (เช่น ลามา 3.2)
ลำดับชั้นของประสิทธิภาพ
ควรพยายามใช้ การสร้างคำถาม (Prompt Engineering) เป็นอันดับแรก หากไม่ได้ผล ให้ดำเนินการใช้ RAG (การสร้างข้อความเสริมด้วยการดึงข้อมูล) ใช้ การฝึกเฉพาะเจาะจง เพียงในขั้นตอนสุดท้ายของการปรับแต่งขั้นสูง
model_selection.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
When does the course recommend proceeding with fine-tuning over prompt engineering?
When the benefits in quality and cost (reduced token usage) outweigh compute effort.
Whenever you need the model to sound more human-like.
As the very first step before trying RAG or prompt engineering.
Only when deploying to an edge device.
Question 2
Which model architecture allows scaling model size while maintaining computational efficiency?
Supervised Fine-Tuning (SFT)
Retrieval-Augmented Generation (RAG)
Mixture of Experts (MoE)
Multimodality
Challenge: Edge Deployment Strategy
Apply your knowledge to a real-world scenario.
You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.
Task 1
Select the appropriate model family and tokenizer for this multilingual, low-resource task.
Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.
Task 2
Define the deployment framework for high-performance local inference.
Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.